PAI AIMaster和灵骏AI助手是一套全自动化的故障快速恢复系统。安装AI助手并开启PAI的作业监控和恢复功能后,当训练任务发生故障或异常时,能自动上报故障信息、隔离问题节点,无需人工干预即可快速恢复任务。本文为您介绍AI助手的具体配置方法。
前提条件
已创建带有ACK灵骏托管版的集群。具体操作,请参见创建带有ACK灵骏托管版的集群。
功能介绍
安装AI助手并完成RRSA授权操作后,提交训练任务时,您需要开启PAI的AIMaster和EasyCKPT功能。当发生故障或异常时,通过AI助手底层的告警系统可以自动和PAI进行交互,上报故障信息,并根据故障触发阶段和并行策略选择规避故障方法,对故障机自动进行隔离,并从Checkpoint快速恢复任务。AI助手提供的具体功能如下:
异常采集和上报:通过AI助手的告警系统自动和PAI进行交互。
故障隔离:对故障机自动进行隔离。
异常处理:通过告警触发PAI创建Checkpoint并快速恢复任务。
配置方法
登录容器服务管理控制台。
安装ack-lingjun-aiast组件。
在集群列表页面,单击目标集群名称,然后在左侧导航栏,选择
。在组件管理页面,单击其他页签,找到ack-lingjun-aiast组件,单击组件右下方的安装。
在提示对话框中确认组件信息后,单击确定。
为集群开启RRSA功能。
在目标集群的左侧导航栏,单击集群信息。
在集群详情页面,单击基本信息页签,在安全与审计区域单击RRSA OIDC右侧的开启。详情请参见通过RRSA配置ServiceAccount的RAM权限实现Pod权限隔离。
在弹出的对话框中,单击确定。
安装ack-pod-identity-webhook组件。具体操作,请参见ack-pod-identity-webhook。
创建一个名为aiph-ack-rrsa-role的RAM角色。
使用阿里云账号登录RAM控制台。
在左侧导航栏,选择 。
在角色页面,单击创建角色。
在创建角色面板,选择可信实体类型为身份提供商,然后单击下一步。
在配置角色配置项,配置如下角色信息后,单击完成。
配置项
描述
角色名称
aiph-ack-rrsa-role
身份提供商类型
OIDC
选择身份提供商
ack-rrsa-<cluster_id>。其中,<cluster_id>为您的集群ID。
限制条件
oidc:iss:默认即可。
oidc:aud:选择sts.aliyuncs.com。
oidc:sub:条件判定方式选择StringEquals,值的格式为system:serviceaccount:aiph-ops:aiph-manager。
为上一步创建的角色授予AliyunCSReadOnlyAccess系统策略权限,以及AI助手需要的自定义OpenAPI权限。自定义OpenAPI权限信息如下,如何创建自定义权限策略,请参见创建自定义权限策略,如何为RAM角色授权,请参见为RAM角色授权。
# 注:添加该权限即代表授权AI助手代替用户进行灵骏节点自动化运维操作。 { "Statement": [ { "Effect": "Allow", "Action": [ "eflo:*" ], "Resource": [ "acs:eflo:*" ] }, { "Effect": "Allow", "Action": "cms:DescribeSystemEventAttribute", "Resource": "acs:cms:*" } ], "Version": "1" }
后续步骤
如需使用训练任务快速恢复,您需要开启PAI的AI Master和EasyCKPT功能。具体操作步骤,请参见: